Nature Biotechnology:AI 的“完形填空”,解锁“不可成药”靶点——PepMLM 为多肽药物设计开启新纪元
来源:生物探索 2025-08-24 10:06
PepMLM 的出现,就像为药物研发人员配备了一副能够破译蛋白质“内在语言”的“解码器”。
在生命科学的宏伟剧本中,蛋白质(protein)扮演着绝对的主角。它们是细胞的建造者、信使、引擎和卫士,执行着几乎所有生命活动。当这些精密的分子机器出现故障时,疾病便随之而来。因此,药物研发的核心任务之一,就是寻找能够精准“钳制”或“修复”这些问题蛋白质的分子。然而,一个巨大的挑战横亘在药物研发人员面前:人体内约有 85% 的蛋白质被认为是“不可成药的”(undruggable)。它们或者缺乏可供小分子药物结合的清晰“口袋”,或者是构象灵活多变、没有固定的三维结构,如同一群飘忽不定的“幽灵”,让传统的药物设计方法束手无策。
近年来,人工智能(AI)的浪潮为这一困境带来了曙光。特别是基于蛋白质三维结构的生成式AI模型,如RFdiffusion,能够从零开始设计全新的蛋白质或多肽(peptide)来结合特定靶点。但这依然没有完全解决问题——它们的设计逻辑高度依赖于靶点拥有一个稳定、已知的“蓝图”,即三维结构。对于那些天然无序或结构动态变化的“幽灵靶点”,我们该何去何从?
8 月 13 日,《Nature Biotechnology》的研究报道“Target sequence-conditioned design of peptide binders using masked language modeling”,介绍了一种名为 PepMLM 的创新算法。它彻底摆脱了对三维结构的依赖,仅通过学习蛋白质的一维氨基酸序列,就能“凭空”设计出能够与之特异性结合的全新肽链。这如同赋予了AI一种超越视觉、直达本质的“直觉”,让它能够直接阅读并理解蛋白质的“语言”,从而为攻克“不可成药”靶点开辟了一条全新的、充满想象力的道路。
当蛋白质遇上语言模型:AI 如何学会“遣词造句”?
要理解 PepMLM 的巧妙之处,我们先将视角从三维空间拉回到一维的序列。想象一下,任何一种蛋白质,无论其空间结构多么复杂,其本质都是由 20 种氨基酸(amino acids)按照特定顺序串联而成的链条。这与人类的语言何其相似:有限的字母(氨基酸)构成了无穷的单词和句子(蛋白质),并承载着丰富的功能和意义。
近年来,受自然语言处理(Natural Language Processing, NLP)领域成功的启发,研究人员开发出了蛋白质语言模型(Protein Language Models, pLMs)。它们通过“阅读”数亿条天然蛋白质序列,学习到了氨基酸之间复杂的“语法规则”和“上下文逻辑”,即蛋白质的进化规律和理化性质。其中,ESM-2模型是当今最先进的代表之一,它如同一个博览群书的“蛋白质语言学家”,对蛋白质序列的理解达到了前所未有的深度。
PepMLM 的核心思想,就是对这位“语言学家”进行一次巧妙的“专科培训”。研究人员没有让模型去预测蛋白质的复杂结构,而是设计了一个极其简洁却直击要害的任务——“完形填空”。他们将目标蛋白的氨基酸序列与一个已知能与之结合的短肽序列拼接在一起,然后,用一个特殊的“掩码”(mask)将整个短肽区域完全遮盖起来,再将这个“残缺的句子”输入到精调后的ESM-2模型中。
模型的任务,就是根据目标蛋白这段“上文”,准确地“填”出被遮盖的短肽。这个过程不断重复,模型在一次次“猜词”和“核对答案”中,逐渐学会了特定目标蛋白序列与它的结合肽序列之间的深层关联。它不再仅仅是一个通晓普遍语法的语言学家,更成为了一位能够根据特定语境(目标蛋白)进行精准“遣词造句”(设计结合肽)的专家。训练完成后,当研究人员给 PepMLM 一个全新的目标蛋白序列和一串指定长度的空白“掩码”时,它就能够生成一个全新的、理论上能够与该目标蛋白结合的肽序列。这种完全基于序列信息的设计范式,从根本上绕开了对三维结构的依赖,为靶向那些“无形”的蛋白质提供了可能。
虚拟战场的“模拟对抗”:PepMLM 的计算验证
一个新算法的诞生,必须经过严格的考验。在投入昂贵且耗时的湿实验验证之前,研究人员首先在计算机世界里为 PepMLM 设置了一系列严苛的“模拟对抗”,以检验其设计的可靠性与优越性。
第一个考验是评估设计的“合理性”。研究人员引入了一个名为“伪困惑度”(pseudo-perplexity, PPL)的指标。在语言模型中,困惑度越低,代表模型对生成序列的“信心”越足,序列也越符合其学到的“语法规则”。研究人员在一个包含 203 对已验证的蛋白-肽结合体的测试集上进行了评估。结果显示,真实存在的结合肽,其 PPL 值普遍较低,分布在一个合理的范围内。而 PepMLM 生成的肽,其 PPL 值的分布曲线与真实结合肽的曲线高度重合,都集中在低分区域。相比之下,未经精调的原始ESM-2模型生成的肽和完全随机生成的肽,其PPL值则显著偏高,分布曲线明显右移。这有力地证明了,PepMLM生成的肽在“语言学”层面是合理且自然的,与真实世界中的功能肽非常相似。
接下来是更具挑战性的“擂台赛”。研究人员将 PepMLM 与当前顶尖的、基于结构的肽设计方法 RFdiffusion 进行了正面比较。他们让两种算法为测试集中的每个靶点各设计一个肽,然后利用 AlphaFold-Multimer(一种能高精度预测蛋白质复合物结构的工具)来预测这些设计出的肽与靶点结合的“牢固程度”,这个程度用一个名为 ipTM 的分数来衡量,分数越高代表预测的结合越可靠。
结果令人振奋。研究人员将每个靶点上已知的真实结合肽的 ipTM 分数作为“基准线”,如果AI设计的肽获得了比基准线更高的分数,就被视为一次“成功命中”。在这场竞赛中,PepMLM 的命中率达到了 38.39%,而 RFdiffusion 的命中率为 29.86%。当把标准进一步提高,要求预测的复合物结构整体质量也非常高时(pLDDT 分数大于 0.8),PepMLM的优势更加明显,命中率提升至 49%,而 RFdiffusion 仅为 34%。这意味着,即使在面对有清晰结构的靶点时,PepMLM 这个“序列派”选手的表现也毫不逊色,甚至更胜一筹。
最后,研究人员还考察了设计的“特异性”。一个好的药物分子不仅要能结合靶点,更要能“指名道姓”地结合,避免“误伤友军”。他们进行了一项巧妙的置换检验(permutation test):对于一个设计好的“蛋白-肽”配对,他们保持蛋白不变,但将肽的氨基酸序列随机打乱 100 次,形成 100 个错误的配对。结果发现,这些“乱序”肽的 PPL 分数急剧升高,与原始配对的低 PPL 分数形成了鲜明对比。这就像一把钥匙,只有以正确的齿序排列时才能轻松打开锁芯(低 PPL),一旦打乱顺序,就再也无法匹配(高 PPL)。这一结果清晰地表明,PepMLM 设计的肽是为特定靶标“量身定制”的,具有高度的序列特异性。
从比特到试管:实验室里的“真刀真枪”
虚拟世界的成功固然可喜,但真正的考验终将回归到物理世界。PepMLM 设计出的肽序列,在真实的生物环境中是否依然有效?为了回答这个问题,研究人员将计算设计带入了实验室,进行了一系列“真刀真枪”的验证。
他们选择了两个与人类疾病密切相关的蛋白质作为靶点:一个是神经细胞黏附分子 1(NCAM1),它在急性髓系白血病中扮演着关键角色;另一个是抗苗勒管激素 II 型受体(AMHR2),是多囊卵巢综合征的重要调控因子。研究人员分别使用 PepMLM 和 RFdiffusion 为这两个靶点设计了四条候选肽,并在体外通过酶联免疫吸附测定(ELISA)的方法检测它们的结合能力。
实验结果清晰地展示了两种方法之间的差异。对于两个靶点,PepMLM 设计的全部四种肽都表现出了结合信号。其中最优的候选肽,在靶点蛋白浓度低至约 60 nM 时就能检测到显著的结合反应,显示出良好的亲和力。当研究人员进一步测试NCAM1的最优结合肽时,发现在大约 30 nM 的浓度下,其结合信号就已显著高于背景对照。
反观基于结构的RFdiffusion,其表现则不尽如人意。它为NCAM1设计的肽虽然产生了一定的结合信号,但远弱于PepMLM的设计;而为AMHR2设计的肽,则几乎没有显示出任何有效的结合,与阴性对照无异。这一轮直接的实验对比,强有力地证实了PepMLM不仅在理论上可行,在实践中同样能够高效地生成具有真实生物活性的功能肽,其成功率和效果甚至超越了主流的结构设计方法。
“制导导弹”的诞生:靶向降解顽固的致病蛋白
找到能够结合靶点的肽只是第一步,更激动人心的应用在于如何利用这些肽来主动干预疾病进程。研究团队将目光投向了近年来炙手可热的靶向蛋白降解(Targeted Protein Degradation, TPD)技术。其核心思想是,不再仅仅抑制问题蛋白的功能,而是直接将其“标记”并送入细胞内的“垃圾处理厂”——蛋白酶体(proteasome),进行彻底清除。
为此,他们利用了一种名为“泛素抗体”(ubiquibody, uAb)的巧妙工具。这是一个融合蛋白,一端是PepMLM设计的、能够精准识别靶点的肽(如同导弹的“制导系统”),另一端则连接着一个能够招募 E3 泛素连接酶的结构域(如同“战斗部”)。当这个 uAb 在细胞内表达时,它会像一枚精确制导的导弹,找到目标蛋白并与之结合,然后 E3 连接酶会为目标蛋白贴上“泛素化”的死亡标签,引导其被蛋白酶体降解。
研究人员首先将这一策略应用于亨廷顿病(Huntington's disease)的治疗。这是一种毁灭性的神经退行性疾病,由亨廷顿蛋白(HTT)基因中的CAG重复序列异常扩增导致。他们设计了uAb来降解两种关键蛋白:一种是导致疾病的突变型亨廷顿蛋白(mHTT)本身;另一种是名为MSH3的蛋白,它会加剧CAG序列的不稳定性,从而恶化病情。
实验结果非常出色。在人类细胞模型中,他们测试了六种针对MSH3的uAb,其中五种都成功地、显著地降低了 MSH3 蛋白的水平。随后,他们又将五种针对mHTT的uAb转染到来自亨廷顿病患者的成纤维细胞中。在药物诱导uAb表达后,所有的五种 uAb 都显著降低了 mHTT 蛋白的含量。这表明,PepMLM能够设计出高效的“制导系统”,引导细胞清除这些顽固的致病蛋白。
研究团队并未止步于此,他们将目光转向了另一个严峻的公共卫生挑战——新发病毒感染。他们选择了三种危险的病毒作为目标:尼帕病毒(Nipah virus, NiV)和亨德拉病毒(Hendra virus, HeV),这两种病毒致死率极高,具有大流行的潜力;以及人类偏肺病毒(human metapneumovirus, HMPV),这是一种常见的呼吸道病毒,在儿童和老人中可能导致重症。他们针对这三种病毒中对于病毒复制至关重要的磷蛋白(phosphoprotein),分别设计了 20 种uAb。
在细胞共转染实验中,研究人员观察到,总共有 37 种uAb表现出对病毒磷蛋白的降解能力,平均降解效率在 20% 到 49% 之间,整体命中率高达约 63%,这与他们之前的计算模拟预测的命中率惊人地一致。为了进一步验证其在真实病毒感染环境下的效果,他们将几种针对HMPV的候选uAb转染到细胞中,然后用活的HMPV病毒进行感染。通过免疫荧光成像可以直观地看到,在表达了高效 uAb 的细胞中,病毒磷蛋白的绿色荧光信号几乎被完全清除了。这一结果极具说服力,它不仅证明了PepMLM能够在细胞内实现高效的蛋白降解,更揭示了其作为一种广谱抗病毒药物开发平台的巨大潜力。
开启“无结构”设计新范式:AI 将如何重塑药物研发的未来?
PepMLM 的问世,其意义远不止于提供了一个新的算法。它代表了一种药物设计理念的深刻转变——从“眼见为实”的结构依赖,转向“洞察本质”的序列驱动。这为我们打开了通往广阔“不可成药”世界的大门。那些因结构无序、动态多变而被传统方法搁置的靶点,如转录因子、融合蛋白等,如今都有了被精准靶向的希望。
这项工作的巧妙之处在于它的简洁与高效。研究人员并没有从头构建一个庞大而复杂的模型,而是站在巨人(ESM-2)的肩膀上,通过一个简单而深刻的“完形填空”任务,对现有模型进行高效的“再训练”,就实现了功能上的巨大飞跃。这使得该技术具有很高的可及性和可扩展性,任何具备目标蛋白序列信息的研究者,都有可能利用它来快速生成候选的结合肽。
当然,PepMLM 的征途才刚刚开始。未来的研究可以在此基础上进行更多激动人心的探索。例如,将PepMLM的生成能力与高通量的实验筛选相结合,形成一个“设计-测试-学习”的闭环,通过主动学习(active learning)让模型在迭代中变得越来越“聪明”。此外,还可以通过训练模型识别和理解蛋白质的翻译后修饰,从而设计出能够特异性靶向特定修饰状态(如磷酸化)的肽,实现更高层次的精准调控。
总而言之,PepMLM 的出现,就像为药物研发人员配备了一副能够破译蛋白质“内在语言”的“解码器”。它让我们相信,即使面对那些最难以捉摸的疾病靶点,只要我们能读懂其最核心的序列信息,就有可能设计出与之对话、乃至掌控其命运的分子工具。在人工智能的助力下,一个全新的、由序列直接主导的药物发现范式正在拉开帷幕,它必将深刻地改变我们对抗复杂疾病的方式,为无数患者带来新的希望。
版权声明 本网站所有注明“来源:生物谷”或“来源:bioon”的文字、图片和音视频资料,版权均属于生物谷网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:生物谷”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
